已知深层神经网络容易受到对抗扰动的影响 - 较小的扰动会改变网络的输出并存在于严格的规范限制下。虽然通常将这种扰动讨论为针对特定输入量身定制,但可以构建通用扰动以更改模型在一组输入上的输出。普遍的扰动呈现出更现实的对抗攻击案例,因为不需要对模型的确切输入的认识。此外,通用攻击设置将泛化的主题提高到看不见的数据,在给定一组输入的情况下,通用扰动旨在改变模型在样本外数据上的输出。在这项工作中,我们研究了基于视觉探测器的自主导航系统的物理被动补丁对抗攻击。视觉轨道测定系统旨在推断两个相应的观点之间的相对摄像机运动,并经常被基于视觉的自主导航系统使用以估计其状态。对于此类导航系统,贴片对抗扰动构成了严重的安全问题,因为它可以用来误导系统到某些碰撞过程中。据我们所知,我们首次表明,通过在场景中部署补丁的对抗攻击,可以显着增加视觉探针模型的错误差。我们提供有关合成闭环无人机导航数据的评估,并证明实际数据中存在可比漏洞。在https://github.com/patchadversarialattacks/patchardversarialateacks上提供了提出方法和报告实验的参考实现。
translated by 谷歌翻译
自主场景的曝光和探索,尤其是在本地化或沟通有限的区域,对于在未知场景中寻找目标有用,仍然是计算机导航中的一个具有挑战性的问题。在这项工作中,我们提出了一种用于实时环境探索的新方法,其唯一的要求是一个视觉上相似的数据集,用于预训练,场景中足够的照明以及用于环境感应的机上前瞻性RGB摄像机。与现有方法相反,我们的方法只需要一个外观(图像)才能做出一个良好的战术决定,因此在非成长,恒定的时间内起作用。两个方向的预测以像素为特征,称为goto和lookat像素,包括我们方法的核心。这些像素通过以下方式编码建议的飞行指令:goto像素定义了代理应以一个距离单位移动的方向,而Lookat像素定义了相机应在下一步中指向的方向。这些飞行的指导像素经过优化,以揭示当前未开发的区域的最多数量。我们的方法提出了一种新型的基于深度学习的导航方法,能够解决此问题并在更复杂的设置中证明其能力,即计算能力有限。此外,我们提出了一种生成面向导航数据集的方法,从而可以使用RGB和深度图像对我们的方法有效培训。在模拟器中进行的测试,评估了稀疏像素的推断过程的协调,以及旨在揭示区域并降低目标距离的2D和3D测试飞行取得了令人鼓舞的结果。与最先进的算法的比较表明,我们的方法能够表现出色,在测量每个相机姿势的新体素,最小距离目标距离,所见表面素的百分比和计算时间指标。
translated by 谷歌翻译
尽管越来越受欢迎,但图形神经网络(GNN)仍然存在多个未解决的问题,包括缺乏嵌入的表现力,向遥远的节点传播信息以及大规模图的培训。了解此类问题的根源并提供解决方案需要开发分析工具和技术。在这项工作中,我们提出了可恢复性的概念,该概念衡量了随机变量中所包含的信息量,以恢复另一种形式。我们提供了一种有效的可恢复性经验估计的方法,证明了它与GNN中的信息聚集的紧密关系,并展示了如何在无监督的图表学习中使用该新概念。我们通过对各种数据集和不同GNN体系结构的广泛实验结果证明,估计的可回收性与聚集方法的表达性和图形稀疏质量相关,可以使用我们的无监督方法来学习GNN表示,并且可恢复性的正则性可缓解准确性下降,从而缓解准确性下降。 GNN深度。重现我们的实验的代码可从https://github.com/anonymons1252022/recoverability获得
translated by 谷歌翻译
引用的视频对象分割任务(RVOS)涉及在给定视频的帧中分割文本引用的对象实例。由于这种多模式任务的复杂性,它结合了文本推理,视频理解,实例分割和跟踪,现有方法通常依赖于复杂的流水线以解决它。在本文中,我们提出了一种简单的基于变压器的RVO方法。我们的框架称为多模式跟踪变压器(MTTR),将RVOS任务模拟作为序列预测问题。在计算机视觉和自然语言处理的最新进步之后,MTTR基于实现视频和文本可以通过单个多峰变压器模型有效地处理视频和文本。 MTTR是端到端的培训,没有文本相关的电感偏置组件,不需要额外的面具细化后处理步骤。因此,与现有方法相比,它显着简化了RVOS管道。标准基准的评估表明,MTTR在多个度量标准中显着优于前面的艺术。特别是,MTTR分别显示A2D句子和JHMDB句子数据集的令人印象深刻的+5.7和+ 5.0映射增长,同时处理每秒76帧。此外,我们在公开验证集的推荐集上报告了强劲的结果,这是一个更具挑战性的RVOS数据集,该数据集尚未得到研究人员的注意。重现我们的实验的代码可在https://github.com/mttr2021/mttr中获得
translated by 谷歌翻译